Telegram Group & Telegram Channel
Какие могут быть проблемы в данных? Как вы бы их исправляли?

В данных могут быть ошибки, дубликаты, пропущенные значения.

🔹Ошибки могут быть связаны с человеческим фактором, например, невнимательностью, или вызваны сбоями в работе оборудования, записывающего какие-либо показатели. Чтобы исправить ошибки, нам нужно выяснить, чем они были вызваны. После этого можно будет выбрать верную стратегию.

Распространённым типом ошибок являются неверные значения. Поэтому необходимо проверить, что данные не противоречат своей природе. Например, цена товара не может быть отрицательной.

🔹Дубликаты в данных следует удалять. Найти их и удалить можно, например, с помощью Pandas, методов duplicated и drop_duplicates.

🔹Неверные типы значений могут испортить анализ и дальнейшую работу с данными. Например, некоторый показатель записан в виде строк, хотя нам было бы предпочтительнее работать с ним как с типом float. Нужно привести все типы к требуемым. Даты и время можно перевести в объекты datetime.

🔹Обработка пропущенных значений также требует понимания природы данных. В целом, тут есть несколько основных методов:
▫️удалить объекты с пропусками,
▫️заменить пропуски на среднее значение, медиану или моду,
▫️провести множественную импутацию данных (MICE).

🔹Также стоит провести поиск аномалий (выбросов) в данных. В зависимости от ситуации, аномалии можно отфильтровать, скорректировать или проанализировать отдельно.

#машинное_обучение
#предобработка_данных



tg-me.com/ds_interview_lib/285
Create:
Last Update:

Какие могут быть проблемы в данных? Как вы бы их исправляли?

В данных могут быть ошибки, дубликаты, пропущенные значения.

🔹Ошибки могут быть связаны с человеческим фактором, например, невнимательностью, или вызваны сбоями в работе оборудования, записывающего какие-либо показатели. Чтобы исправить ошибки, нам нужно выяснить, чем они были вызваны. После этого можно будет выбрать верную стратегию.

Распространённым типом ошибок являются неверные значения. Поэтому необходимо проверить, что данные не противоречат своей природе. Например, цена товара не может быть отрицательной.

🔹Дубликаты в данных следует удалять. Найти их и удалить можно, например, с помощью Pandas, методов duplicated и drop_duplicates.

🔹Неверные типы значений могут испортить анализ и дальнейшую работу с данными. Например, некоторый показатель записан в виде строк, хотя нам было бы предпочтительнее работать с ним как с типом float. Нужно привести все типы к требуемым. Даты и время можно перевести в объекты datetime.

🔹Обработка пропущенных значений также требует понимания природы данных. В целом, тут есть несколько основных методов:
▫️удалить объекты с пропусками,
▫️заменить пропуски на среднее значение, медиану или моду,
▫️провести множественную импутацию данных (MICE).

🔹Также стоит провести поиск аномалий (выбросов) в данных. В зависимости от ситуации, аномалии можно отфильтровать, скорректировать или проанализировать отдельно.

#машинное_обучение
#предобработка_данных

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/285

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Telegram hopes to raise $1bn with a convertible bond private placement

The super secure UAE-based Telegram messenger service, developed by Russian-born software icon Pavel Durov, is looking to raise $1bn through a bond placement to a limited number of investors from Russia, Europe, Asia and the Middle East, the Kommersant daily reported citing unnamed sources on February 18, 2021.The issue reportedly comprises exchange bonds that could be converted into equity in the messaging service that is currently 100% owned by Durov and his brother Nikolai.Kommersant reports that the price of the conversion would be at a 10% discount to a potential IPO should it happen within five years.The minimum bond placement is said to be set at $50mn, but could be lowered to $10mn. Five-year bonds could carry an annual coupon of 7-8%.

Библиотека собеса по Data Science | вопросы с собеседований from pl


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA